Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,



Podobne dokumenty
Agnieszka Nowak Brzezińska

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Prawdopodobieństwo czerwonych = = 0.33

Mail: Pokój 214, II piętro

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Hierarchiczna analiza skupień

Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp

Wprowadzenie. Data Science Uczenie się pod nadzorem


Klasyfikacja LDA + walidacja

Elementy modelowania matematycznego

Regresyjne metody łączenia klasyfikatorów

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

WYKŁAD 13 ANALIZA I ROZPOZNANIE OBRAZU. Konstrukcja wektora cech z użyciem współczynników kształtu

2. Empiryczna wersja klasyfikatora bayesowskiego

Sztuczna inteligencja : Algorytm KNN

Metody systemowe i decyzyjne w informatyce

Rozpoznawanie obrazów

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Analiza skupień. Idea

Regresja liniowa, klasyfikacja metodą k-nn. Agnieszka Nowak Brzezińska

Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie

Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski

Metody systemowe i decyzyjne w informatyce

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Rozkłady dwóch zmiennych losowych

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

5 Błąd średniokwadratowy i obciążenie

STATYSTYKA

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Klasyfikacja metodą Bayesa

KLASYFIKACJA. Słownik języka polskiego

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Pattern Classification

ALGORYTMY SZTUCZNEJ INTELIGENCJI

Zagadnienie klasyfikacji (dyskryminacji)

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

Spis treści 3 SPIS TREŚCI

METODY INŻYNIERII WIEDZY

Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Wybór modelu i ocena jakości klasyfikatora

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Analiza współzależności dwóch cech I

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

METODY STATYSTYCZNE W BIOLOGII

Ważne rozkłady i twierdzenia c.d.

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Symulacyjne metody wyceny opcji amerykańskich

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Regresja i Korelacja

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

IX. Rachunek różniczkowy funkcji wielu zmiennych. 1. Funkcja dwóch i trzech zmiennych - pojęcia podstawowe. - funkcja dwóch zmiennych,

Sztuczna Inteligencja Projekt

Rozpoznawanie obrazów

Algorytmy klasyfikacji

POLITECHNIKA OPOLSKA

EGZAMIN MATURALNY Z MATEMATYKI

Skalowanie wielowymiarowe idea

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

1 Klasyfikator bayesowski

Analiza współzależności zjawisk

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Rozpoznawanie obrazów

Uzasadnienie tezy. AB + CD = BC + AD 2

Adrian Horzyk

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

METODY INŻYNIERII WIEDZY

Metoda największej wiarogodności

Metody selekcji cech

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

METODY INŻYNIERII WIEDZY

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa

Podstawowe modele probabilistyczne

Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Jądrowe klasyfikatory liniowe

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

Pochodne cząstkowe i ich zastosowanie. Ekstrema lokalne funkcji

Metody systemowe i decyzyjne w informatyce

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Centralne twierdzenie graniczne

Metody probabilistyczne

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Transkrypt:

Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której należy większość z jego K najbliższych sąsiadów. Estymator prawdopodobieństwa a posteriori przynależności obserwacji x do klasy k jest wyliczany jako udział obserwacji z tej klasy wśród jej K najbliższych sąsiadów, czyli ˆp(k x) = 1 K n I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, i=1 gdziex (K) jestk-tymcodoodległościodxpunktemzpróby uczącej, natomiast ρ jest pewną odległością(lub ogólniej miarą niepodobieństwa obiektów).

Klasyfikator Klasyfikator metody K-najbliższych sąsiadów ma zatem postać ˆd KNN (x) =argmaxˆp(k x). k

Klasyfikator Metoda ta ma bardzo wysoką efektywność, gdy liczba obserwacji rośnie nieskończenie. Jednakże w wielu sytuacjach praktycznych liczba dostępnych obserwacji jest niewielka, co często prowadzi do drastycznego spadku efektywności metody najbliższych sąsiadów. nie wymaga estymacji warunkowych funkcji gęstości, jest więc zdecydowanie prostsza w implementacji.

Miary niepodobieństwa Szczególnie ważne w przypadku tej metody jest przyjęcie właściwej odległości, a w zasadzie miary niepodobieństwa obiektów. Definicja Funkcję ρ : X X Rnazywamymiarąniepodobieństwajeśli: 1. ρ(x,y) 0, 2. ρ(x,y) =0wtedyitykowtedy,gdyx =y, 3. ρ(y,x) = ρ(x,y).

Miary niepodobieństwa Określona w ten sposób miara jest semi-metryką na przestrzeni próby.jakwidaćniemusionabyć(choćczęstojest)metryką,tzn. niemusispełniaćwarunkutrójkąta: ρ(x,y) ρ(x,z)+ρ(z,y). Nierówność trójkąta nie jest nam potrzebna do określenia kolejności odległości punktów od x, ponieważ nie interesują nas odległości pomiędzy pozostałymi punktami. Wybór miary niepodobieństwa obiektów jest arbitralny i zależy głównie od charakteru danych.

Miary niepodobieństwa Dla danych ilościowych, jako miarę niepodobieństwa pomiędzy obiektami używa się często zwykłą odległość(metrykę) euklidesową ( p ) 1/2 ρ 1 (x,y) = ((x y) (x y)) 1/2 = (x i y i ) 2 lub jej kwadrat i=1 ρ 2 (x,y) = (x y) (x y) = p (x i y i ) 2. i=1 Zwróćmy uwagę, że druga miara nie jest metryką, ponieważ nie jest dla niej spełniony warunek trójkąta.

Miary niepodobieństwa Jeżeli cechy opisujące obiekty wyrażone są w różnych jednostkach, to w celu zniwelowania ich wpływu możemy zastosować ważoną odległość euklidesową ρ 3 (x,y) = ((x y) W 1 (x y)) 1/2 = ( p i=1 1 w 2 i (x i y i ) 2 ) 1/2, gdziew =diag{w 2 1,...,w2 p },awagiw isąodchyleniami standardowymi poszczególnych cech. Aby miara uwzględniała również korelacje pomiędzy cechami stosujemy jako miarę niepodobieństwa odległość Mahalanobisa ρ 4 (x,y) = ((x y) S 1 (x y)) 1/2, gdzie S jest estymatorem macierzy kowariancji.

Miary niepodobieństwa Rzadziej stosuje się również inne miary niepodobieństwa: Odległość miejska(taksówkowa, manhatańska) ρ 5 (x,y) = p x i y i. i=1 Odległość ta, tak samo jak odległość euklidesowa, jest szczególnym przypadkiemodległościminkowskiegowprzestrzeni R p danej wzorem: ( p ) 1/q ρ(x,y) = x i y i q. i=1

Miary niepodobieństwa (y 1,y 2 ) (x 1,x 2 ) ρ 1 (x,y) = (x 1 y 1 ) 2 +(x 2 y 2 ) 2 ρ 2 (x,y) = (x 1 y 1 ) 2 +(x 2 y 2 ) 2 ρ 5 (x,y) = (x 1 y 1 ) + (x 2 y 2 )

Miary niepodobieństwa Odległość Czebyszewa Odległość Frechéta ρ 6 (x,y) =max 1 i p x i y i, ρ 7 (x,y) = p x i y i 1 1+ x i y i 2 i, i=1 Odległość Canberry ρ 8 (x,y) = p i=1 x i y i x i +y i,

Miary niepodobieństwa Odległość poczty ρ 9 (x,y) = { ρ 2 (x,0)+ρ 2 (0,y), dlax y, 0, dlax =y, Odległość metra 0, dlax =y, ρ 2 (x,y), ρ 10 (x,y) = dlax yorazx,yleżących przez punkt 0, ρ 2 (x,0)+ρ 2 (0,y), pozatym, na jednej prostej przechodzącej

Miary niepodobieństwa (y 1,y 2 ) (x 1,x 2 ) ρ 9 (x,y) =x 2 1 +x2 2 +y2 1 +y2 2

Miary niepodobieństwa (y 1,y 2 ) (z 1,z 2 ) (x 1,x 2 ) ρ 10 (x,y) =x 2 1 +x2 2 +y2 1 +y2 2 ρ 10 (x,z) = (x 1 z 1 ) 2 +(x 2 z 2 ) 2

Miary niepodobieństwa W przypadku danych jakościowych, możemy w naturalny sposób zdefiniować miarę niepodobieństwa obiektów jako ρ 11 (x,y) = 1 p p I(x i y i ). i=1 Miara ta nazywana jest współczynnikiem Sneatha.

Miary niepodobieństwa Na szczególną uwagę zasługuje sytuacja danych binarnych, tzn. takich gdzie każda cecha może przyjmować tylko dwie wartości(0 albo 1). Miara Sneatha przyjmuje wtedy postać ρ 12 (x,y) = b +c p =1 a+d p, gdzie a i d oznaczają liczbę cech zgodnych(1-1, 0-0 odpowiednio), b i c niezgodnych(1-0, 0-1 odpowiednio). Miara ta nosi nazwę współczynnika dopasowania obiektów. Do innych, szczególnie często wykorzystywanych w tej sytuacji, miarniepodobieństwaobiektównależą,statystyka χ 2 ρ 13 (x,y) = oraz współczynnik Jaccarda p(ad bc) 2 (a+b)(c +d)(a+c)(b +d) ρ 14 (x,y) = b +c a+b +c.

Własności graniczne Okazuje się, że metoda najbliższych sąsiadów ma bardzo ciekawe własnościasymptotyczne.niech ε n oznaczabezwarunkoweśrednie prawdopodobieństwo błędu metody najbliższych sąsiadów na n-elementowymzbiorzeiε oznaczabłądbayesowski.dlametody 1-NN zachodzi następująca nierówność: ( ε ε ε 2 L ) L 1 ε, jeśli ε = lim n ε n.

Własności graniczne Górne ograniczenie jest osiągane dla tzw. nieinformującego przypadku, gdzie gęstości we wszystkich klasach są takie same oraz prawdopodobieństwa a priori również są takie same. Kiedy błąd bayesowski jest mały, górne ograniczenie jest w przybliżeniu równe podwojonemu błędowi bayesowskiemu.

Własności graniczne Ponieważ εjestzawszemniejszybądźrówny2ε,przynajmniej połowa informacji klasyfikacyjnej jest zawarta w najbliższym sąsiedzie. Co za tym idzie, żadna reguła klasyfikacyjna, oparta na nieskończonej próbie uczącej, typu najbliższy sąsiad nie poprawi błędu klasyfikacji o więcej niż połowę. Co ważne, zależność powyższa jest prawdziwa bez względu na przyjętą miarę niepodobieństwa.

Własności graniczne Metoda K-NN jest optymalna w sensie błędu bayesowskiego, gdyż jeślin,k orazk/n 0toprawdopodobieństwobłędu metody K-NN dąży do błędu bayesowskiego.

Wybór reprezentatywnego podzbioru obserwacji Wadą metody najbliższego sąsiada jest duży nakład obliczeniowy niezbędny do klasyfikacji każdego obiektu. Jest to związane ze znaczną liczbą obliczeń niezbędną do wyznaczenia odległości między obiektami. W literaturze można znaleźć pewne techniki dokonujące redukcji danych, które likwidują te niedogodności. Należą do nich algorytmy edycyjne oraz algorytmy kondensujące informację. Celem tych pierwszych jest wybór niedużych i jednorodnych skupień obserwacji. Celem natomiast drugiego typu algorytmów jest wybranie jak najmniejszej liczby obserwacji, które dobrze reprezentują klasy(położone są one możliwie blisko brzegów).

Wybór reprezentatywnego podzbioru obserwacji W wyniku tych procedur otrzymuje się pewien podzbiór V zbioru uczącego Z. Do najczęściej wykorzystywanych technik tego rodzaju należy: metoda Harta oraz metoda Wilsona. Pierwsza należy do technik kondensacji, a druga do technik edycyjnych.

Wybór reprezentatywnego podzbioru obserwacji W przypadku metody Harta zaczynamy od zbioru V zawierającego jednąobserwacjęz 1,którajestuznawanazauczącą.DozbioruV przesuwamy, po kolei, obserwacje, które są błędnie klasyfikowane przez metodę 1-NN uczoną na aktualnym zbiorze V. Procedurę powtarzamytakdługo,ażwszystkieobserwacjezezbioruz\vsą klasyfikowane poprawnie. Technika ta ma tendencję do zachowywania obserwacji leżących w pobliżu granic decyzyjnych oraz usuwania obserwacji leżących głębiej.

Wybór reprezentatywnego podzbioru obserwacji W przypadku metody Wilsona wykonywana jest metoda K-NN (proponowanek =3)nazbiorzeZiusuwanesąwszystkie elementy, które zostały błędnie zaklasyfikowane. Pozostałe elementy tworzą zbiór V, na którym powinna być używana metoda 1-NN. Zaskakująco dobre wyniki daje metoda losowej edycji. Polega ona na losowym podziale zbioru uczącego z góry ustaloną ilość razy, przy czym rozmiar zbioru V jest również ustalony. Wynikiem jest zbiór, na którym uzyskano najmniejszą ocenę błędu metodą resubstytucji.